Commonsense Natural Language Inference (NLI) ist eine Fähigkeit von KI-Sprachmodellen zur Verarbeitung und zum Verständnis natürlicher Sprache. Sie besteht aus der Aufgabe, zu bestimmen, ob eine Hypothese abhängig von einer gegebenen Prämisse folgerichtig, widersprüchlich oder unbestimmt (neutral) ist. Im NLP-Umfeld existieren zahlreiche Datensätze, mit denen sich die NLI-Fähigkeiten von Sprachmodellen trainieren, testen und bewerten lassen.
Commonsense Natural Language Inference, abgekürzt NLI, ist ein Fachbegriff aus dem Bereich des Natural Language Processings (NLP – Verarbeitung natürlicher Sprache). Er beschreibt die Fähigkeit eines Sprachmodells, den Inhalt und die Bedeutung natürlichsprachiger Texte mithilfe von Vorwissen und logischem Schlussfolgern zu verstehen. Das dafür notwendige Wissen und die benötigten logischen Fähigkeiten werden in Analogie zu menschlichen Fähigkeiten als „gesunder Menschenverstand“ bezeichnet. Dies soll das englische Wort für gesunder Menschenverstand „Commonsense“ zum Ausdruck bringen.
Im Speziellen geht es um die Aufgabe, zu bestimmen, ob eine Hypothese logisch aus einer gegebenen Prämisse folgt und damit folgerichtig, widersprüchlich oder unbestimmt (neutral) ist. Die Hypothese muss klassifiziert und einer der Klassen „Entailment“, „Contradiction“ oder „Neutral“ zugeordnet werden. Da natürliche Sprache oft unpräzise und mehrdeutig ist, stellt Commonsense Natural Language Inference Sprachmodelle vor große Herausforderungen. NLI wird für viele Anwendungen der Künstlichen Intelligenz benötigt, beispielsweise für Chatbots oder maschinelle Übersetzungen von Text. Im NLP-Umfeld existieren zahlreiche Datensätze, mit denen sich die NLI-Fähigkeiten von Sprachmodellen trainieren, testen und bewerten lassen.
Einfaches Beispiel für eine typische NLI-Aufgabe
Zum besseren Verständnis der Commonsense Natural Language Inference im Folgenden ein einfaches Beispiel einer typischen NLI-Aufgabe:
Prämisse: Ein älterer Mensch wartet im Schnellrestaurant
Hypothese 1: Eine Person wartet auf ihr Essen (Entailment – folgerichtig)
Hypothese 2: Eine Frau möchte eine Bratwurst bestellen (Neutral – unbestimmt)
Hypothese 3: Ein Mann wartet in der Schlange auf den Bus (Contradiction – widersprüchlich)
Grundlegende Problemstellung
Menschen nutzen ihren sogenannten gesunden Menschenverstand, um Aussagen oder Beschreibungen von Situationen in einem Text zu verstehen. Sie setzen dafür ihr erworbenes Vorwissen, bereits gemachte Erfahrungen und die Fähigkeit, logisch zu schlussfolgern ein. Schon bei mit wenigen Worten beschriebene Situationen oder Sachverhalten können Menschen Zusammenhänge richtig erfassen und korrekte Antworten oder plausible Fortführungen ableiten. Sprachmodelle stellt dies vor große Herausforderungen. Ihnen fehlt das Hintergrundwissen und der „gesunde Menschenverstand“, um die möglichen Bedeutungen von Textaussagen korrekt zu verstehen. Natürliche Sprache ist oft unpräzise und mehrdeutig und erfordert zum Verständnis besondere Fähigkeiten. Computer müssen das Zusammenspiel vieler verschiedene Aspekte natürlicher Sprache wie Syntax oder Semantik beachten und sie mit externem Wissen und Logik in Beziehung setzen. Hierfür sind fortschrittliche Algorithmen und Methoden des maschinellen Lernens notwendig. Neben linguistischer Kompetenz benötigen die Sprachmodelle ein gewisses Hintergrundwissen und eben einen „gesunden Menschenverstand“.
Benchmarks zum Test der NLI-Fähigkeiten von Sprachmodellen
Um die NLI-Fähigkeiten von Sprachmodellen weiterzuentwickeln, zu trainieren, zu testen und zu bewerten, wurden zahlreiche Benchmarks und Datensätze erstellt. Je nach Benchmark und Datensatz lassen sich mit ihnen neben Commonsense Natural Language Inference noch weitere Fähigkeiten von Sprachmodellen trainieren, testen und bewerten. Beispiele für Datensätze zum Test von NLI-Fähigkeiten sind SNLI, MultiNLI, ANLI, WNLI (Winograd NLI), SuperGLUE (Super General Language Understanding Evaluation), FEVER (Fact Extraction and VERification), WIKI-FACTCHECK, SWAG (Situations With Adversarial Generations), HellaSwag und einige mehr.
Wie Sprachmodelle werden auch Benchmarks und Datensätze ständig weiterentwickelt. Nur so können sie mit den immer leistungsfähigeren Sprachmodellen Schritt halten und sie vor echte Herausforderungen beim Lösen der Aufgaben stellen. Ein Beispiel dafür ist der im Jahr 2018 publizierte Datensatz SWAG (Situations With Adversarial Generations). Bereits kurze Zeit nach Erscheinen des Datensatzes erzielten weiterentwickelte Sprachmodelle Ergebnisse von weit über 90-Prozent und übertrafen menschliche Leistungen.
HellaSwag ist eine Weiterentwicklung und soll es Sprachmodellen erschweren, die richtigen Lösungen zu finden. Der Datensatz besteht aus rund 70.000 Fortsetzungsaufgaben. Auf Basis von mit wenigen Sätzen beschriebenen Sachverhalten muss das Sprachmodell aus vier vorgegebenen Antworten oder Fortsetzungen die richtige auswählen. Zum Zeitpunkt der Veröffentlichung von HellaSwag im Jahr 2019 erreichten State-of-the-Art-Modelle weniger als 50 Prozent richtige Ergebnisse. Die menschlichen Ergebnisse liegen bei 95,6 Prozent richtige Antworten. Mittlerweile erzielen aktuellere Sprachmodelle auch bei HellaSwag Ergebnisse mit sehr hohen Prozentwerten.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Anwendungsbereiche der Commonsense Natural Language Inference
Die Fähigkeit zur Commonsense Natural Language Inference hat viele praktische Anwendungsbereiche. Sie wird beispielsweise für intelligente Chatbots benötigt. Dank ihrer NLI-Fähigkeiten sind Chatbots in der Lage, menschenähnliche Konversationen zu führen und gestellte Frage zu verstehen und richtig zu beantworten. Ein weiterer Anwendungsbereich ist die maschinelle Übersetzung von Text. Die Fähigkeit zur Commonsense Natural Language Inference stellt sicher, dass die Bedeutung eines übersetzten Satzes der Bedeutung des Satzes in seiner Ausgangssprache entspricht. Weitere Anwendungen sind das Erstellen von Textzusammenfassungen oder das automatische Kategorisieren von Texten.